Fechar

@MastersThesis{Marques:2022:InAtCo,
               author = "Marques, Wilson Jos{\'e} de S{\'a}",
                title = "Intelligent attitude control of satellites via deep reinforcement 
                         learning",
               school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
                 year = "2022",
              address = "S{\~a}o Jos{\'e} dos Campos",
                month = "2021-12-14",
             keywords = "attitude control, satellite, artificial intelligence, deep 
                         reinforcement learning, optimal control, controle de atitude, 
                         sat{\'e}lite, intelig{\^e}ncia artificial, aprendizagem por 
                         refor{\c{c}}o profundo, controle {\'o}timo.",
             abstract = "This work proposes the application of machine learning techniques 
                         to the attitude control of satellites. More specifically, Deep 
                         Reinforcement Learning (DRL) is used to generate an optimal 
                         control policy. The policy is parameterized as a neural network, 
                         which allows for its application in higher dimension state spaces. 
                         Since the torque command used to modify the attitude of the 
                         satellite is a continuous signal, it is necessary to use 
                         algorithms suited for continuous action spaces. Accordingly, three 
                         DRL algorithms were evaluated, namely the Deep Deterministic 
                         Policy Gradient (DDPG), the Twin Delayed DDPG (TD3), and the Soft 
                         Actor-Critic (SAC). For this method to work in the attitude 
                         control setting, it was necessary to modify the default neural 
                         network model used within the referred algorithms. Particularly, 
                         the bias units of the neural networks representing the control 
                         policies have been removed. In regards to the training procedure, 
                         the three algorithms were successful in finding the parameters of 
                         Neural Networks (NN) capable of solving the attitude control 
                         problem. However, there were differences in performance. For 
                         instance, the SAC converged considerably faster than the other 
                         two, and its learning curve showed more consistent learning. 
                         Furthermore, the final average reward value was equivalent for SAC 
                         and TD3. DDPG, on the other hand, showed a more oscillatory 
                         behavior during training, with the acquired reward varying 
                         considerably across the training episodes. While comparing the 
                         actual performance of the NN trained with each algorithm in an 
                         attitude control task, the neural network trained with the TD3 
                         algorithm presented the best response, which closely matched that 
                         of a Proportional-Derivative controller in a nominal scenario. 
                         Thereafter, a more critical scenario involving actuator failure 
                         was also evaluated, where we compared the performance of the 
                         intelligent controller trained with the TD3 algorithm with that of 
                         a baseline PD controller. Overall, in three out of four failure 
                         scenarios, the intelligent controller was able to respond better 
                         than the baseline PD in this challenging scenario. RESUMO: Este 
                         trabalho prop{\~o}e a aplica{\c{c}}{\~a}o de t{\'e}cnicas de 
                         aprendizagem de m{\'a}quina para o controle de atitude de 
                         sat{\'e}lites. Mais precisamente, aprendizagem por refor{\c{c}}o 
                         profundo {\'e} utilizada para a obten{\c{c}}{\~a}o de uma 
                         pol{\'{\i}}tica {\'o}tima de controle. A pol{\'{\i}}tica de 
                         controle {\'e} parametrizada por uma rede neural, o que 
                         possibilita a sua aplica{\c{c}}{\~a}o em espa{\c{c}}os de 
                         estados de ordem elevada. Uma vez que o torque de controle {\'e} 
                         um sinal cont{\'{\i}}nuo, se faz necess{\'a}rio o uso de 
                         algoritmos apropriados para espa{\c{c}}os de a{\c{c}}{\~a}o 
                         cont{\'{\i}}nuos. Dessa forma, tr{\^e}s algoritmos s{\~a}o 
                         avaliados, sendo eles Deep Deterministic Policy Gradient (DDPG), 
                         Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Para que esse 
                         m{\'e}todo funcione em problemas de controle de atitude, {\'e} 
                         necess{\'a}rio modificar o modelo da rede neural padr{\~a}o 
                         usado nesses algoritmos. Particularmente, as unidades de vi{\'e}s 
                         das redes neurais utilizadas para representar pol{\'{\i}}ticas 
                         de controle foram removidas. Em rela{\c{c}}{\~a}o ao 
                         procedimento de treinamento, o algoritmo SAC convergiu 
                         consideravelmente mais r{\'a}pido do que os outros dois, e a sua 
                         curva de aprendizagem teve um comportamento mais est{\'a}vel. 
                         Al{\'e}m disso, o valor final da recompensa acumulada foi 
                         equivalente para os algoritmos SAC e TD3. O algoritmo DDPG, em 
                         contrapartida, apresentou um comportamento inst{\'a}vel durante o 
                         treinamento. Quando comparamos o desempenho da rede neural 
                         treinada com cada algoritmo em uma tarefa de controle de atitude, 
                         a rede neural treinada pelo algoritmo TD3 apresentou a melhor 
                         resposta, a qual se aproximou da resposta do controlador PD de 
                         refer{\^e}ncia em um cen{\'a}rio nominal. Em seguida, um 
                         cen{\'a}rio mais cr{\'{\i}}tico envolvendo falha em atuador foi 
                         avaliado, onde comparamos o desempenho do controlador inteligente 
                         treinado com o algoritmo TD3 com o desempenho de um controlador PD 
                         de refer{\^e}ncia. De forma geral, em tr{\^e}s dos quatro 
                         cen{\'a}rios de falha analisados, o controlador inteligente 
                         respondeu melhor do que o PD de refer{\^e}ncia.",
          affiliation = "{Instituto Nacional de Pesquisas Espaciais (INPE)}",
            committee = "Rocco, Evandro Marconi (presidente) and Chagas, Ronan Arraes 
                         Jardim (orientador) and Maximo, Marcos Ricardo Omena de 
                         Albuquerque",
         englishtitle = "Controle de atitude inteligente de sat{\'e}lites via aprendizagem 
                         por refor{\c{c}}o profundo",
             language = "en",
                pages = "124",
           targetfile = "publicacao.pdf",
        urlaccessdate = "11 maio 2024"
}


Fechar